PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU

作者信息

SJTU Ipads

链接:[2312.12456] PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU

摘要

This paper introduces PowerInfer, a high-speed Large Language Model (LLM) inference engine on a personal computer (PC) equipped with a single consumer-grade GPU【消费级显卡】. The key principle underlying the design of PowerInfer is exploiting the high locality inherent in LLM inference, characterized by a power-law distribution in neuron activation【利用LLM推理的高局部性】. This distribution indicates that a small subset of neurons, termed hot neurons, are consistently activated across inputs, while the majority, cold neurons, vary based on specific inputs【热神经元在输入中持续被激活,而冷神经元根据特定输入而变化】. PowerInfer exploits such an insight to design a GPU-CPU hybrid inference engine: hot-activated neurons are preloaded onto the GPU for fast access, while cold-activated neurons are computed on the CPU, thus significantly reducing GPU memory demands and CPU-GPU data transfers【热神经元被预加载到GPU上,冷神经元则在CPU上进行计算】. PowerInfer further integrates adaptive predictors and neuron-aware sparse operators, optimizing the efficiency of neuron activation and computational sparsity. The evaluation shows that PowerInfer significantly outperforms this http URL by up to 11.69x while retaining model accuracy across various LLMs (including OPT-175B) on a single NVIDIA RTX 4090 GPU. For the OPT-30B model, PowerInfer achieves performance comparable to that of a high-end server-grade A100 GPU, reaching 82% of its token generation rate on a single consumer-grade RTX 4090 GPU.

总结概括

有相关工作证明了神经元可以只被稀疏地激活,通过只计算被激活的神经元来实现计算的加速。但计算哪些神经元需要被激活需要根据input来决定,所以需要load整个model到GPU上才能算出来,这一要求限制了这一方法在消费级显卡的背景中被使用。

观察:一小部分神经元(占比超过80%)会一直被激活,其余不到20%需要被激活神经元则根据输入而变化。文章就是基于这种神经元的局部性build了PowerInfer。

PowerInfer从两个方面使用了神经元的局部性:

  1. 在Offline阶段,将热神经元放置在GPU上,将冷神经元放置在CPU上。
  2. 在Online阶段,通过predictor识别哪些token需要被激活。

PowerInfer也面临着三个挑战:

  1. online predictor占据了不小的GPU内存空间
  2. 使用稀疏的神经元需要实现稀疏算子
  3. 需要确定神经元在CPU和GPU上的最佳放置方案

Motivation

  1. MLP权重的稀疏性

image-20250122165519157

在先前工作中已经证明,可能只有一半attention head是起到作用的,MLP也会因为激活函数而带来稀疏性。比如在ReLU架构中,在给定的数据集中近80%的神经元都未被激活的。同时,活跃的神经元可以在提前几层被识别出来,DejaVu就实现了针对MLP的online predictor,保持了94%的准确率。

image-20250122200458747

同时,这种稀疏是存在power-law的,一小部分的激活值经常性被激活。

image-20250122200753123

图a是layer层面的激活值比重,图b是不同任务情况下的激活值比重,可以看出激活值比重主要还是和模型相关,和任务关系不大。

  1. CPU计算和GPU计算的Trade-off

    image-20250122202745365

    把一部分数据放在CPU上直接计算可能比Load到GPU上计算更快。

Design

PowerInfer将频繁激活的神经元加载到GPU内存,将不太频繁激活的神经元保留在CPU内存。

image-20250122204929506

  1. offline profiler推理预定的输入,记录所有layer的数据,将权重进行分类(hot or cold)
  2. 会结合GPU性能指标分类,来保证未来工作负载的均衡
  3. 将神经元分发给GPU和CPU
  4. CPU管理进程,CPU和GPU并行推理,GPU做最后的集成计算

Offline阶段:

Neuron Placement Policy

需要设计神经元的放置策略,需要在offline阶段将多少神经元放置在GPU上和CPU上。

首先,PowerInfer通过跑一系列的数据集,获取了各神经元的激活频率。

然后,在两个限制情况下最大化在GPU上的神经元:

  • Communication:神经元在CPU上计算时间要小于神经元在GPU上计算的时间加从CPU预取到GPU上的时间
  • Memory:神经元占的Memory不超过GPU和CPU的限制

假如无法满足Memory限制的话,可以对Communication限制做适当的发送。

Online阶段:

image-20250122205900757

这是某一层的样例,其中3,4,5神经元被激活了,4在CPU上进行计算,3和5在GPU上进行计算,最后在GPU上merge为最终结果。

以上就是PowerInfer粗略的系统框架,论文接下来针对其中的细节部分继续展开了更详细介绍。

Adaptive Sparsity Predictors

不同Layer的稀疏度是不一样的,Layer的稀疏度越大,实现95%准确率要求的predictor参数就可以越小

image-20250122211205433

PowerInfer所做的一个优化就是针对不同的层使用不同大小的predictor。而Predictor又是训练出来的MLP,详情可参考ICML 2023的Deja Vu工作,文中没有详细介绍。

GPU-CPU Hybrid Execution

同时,为了实现CPU和GPU的计算,PowerInfer定制了一系列CPU和GPU的稀疏计算的算子

实验评估

背景

先前工作存在的问题概述

难点

补充背景

LLM推理中的稀疏性问题:

Zonglin Li, Chong You, Srinadh Bhojanapalli, Daliang Li, Ankit Singh Rawat, Sashank J Reddi, Ke Ye, Felix Chern, Felix Yu, Ruiqi Guo, et al. 2022. The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in Transformers. In The Eleventh International Conference on Learning Representations.

Zichang Liu, Jue Wang, Tri Dao, Tianyi Zhou, Binhang Yuan, Zhao Song, Anshumali Shrivastava, Ce Zhang, Yuandong Tian, Christopher Re, and Beidi Chen. 2023. Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time. In Proceedings of the 40th International Conference on Machine Learning (Proceedings of Machine Learning Research, Vol. 202), Andreas Krause, Emma Brunskill, Kyunghyun Cho, Barbara Engelhardt, Sivan Sabato, and Jonathan Scarlett (Eds.). PMLR, 22137– 22176. https://proceedings.mlr.press/v202/liu23am.html

Zhengyan Zhang, Yankai Lin, Zhiyuan Liu, Peng Li, Maosong Sun, and Jie Zhou. 2022. MoEfication: Transformer Feed-forward Layers are Mixtures of Experts. In Findings of ACL 2022

思考角度

我如何做这个问题

这个洞见可以引申出其他其他方法吗

该洞见是否可以迁移到其他领域中

该工作有什么可能可以改进的地方

Q&A

results matching ""

    No results matching ""